6 research outputs found
Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial
Laporan kerja magang ini berisi mengenai implementasi kegiatan kerja magang pada PT JULO Teknologi Finansial. Tugas utama yang diberikan adalah mendesain machine learning features pada model credit scoring di PT JULO Teknologi Finansial. Machine learning features ini dibuat dengan tujuan agar dapat membantu performa model credit scoring dalam mengklasifikasikan aplikasi pinjaman dalam tingkatan tertentu. Data pendukung dari pembuatan features merupakan informasi detail dari aplikasi android pada Google Playstore yang berkategorikan finance. Dari data pendukung dan juga beberapa data pengguna yang ada dalam database perusahaan, dapat terbentuk dua macam features berupa jumlah dari aplikasi android berkategorikan finance yang diunduh tiap aplikasi pinjaman dan juga feature turunan yang didapatkan dari feature jumlah aplikasi android dan durasi unduh antaraplikasi pada tiap aplikasi pinjaman. Features dapat memberi dampak yang cukup signifikan dalam performa model yang diukur dalam metrik penilaian performa AUC dibuktikan dengan masuknya features ke dalam 50 (lima puluh) features teratas dari kurang lebih 800 (delapan ratus) features diurutkan dari yang paling berpengaruh
Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT
Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective
NusaCrowd: Open Source Initiative for Indonesian NLP Resources
We present NusaCrowd, a collaborative initiative to collect and unify
existing resources for Indonesian languages, including opening access to
previously non-public resources. Through this initiative, we have brought
together 137 datasets and 118 standardized data loaders. The quality of the
datasets has been assessed manually and automatically, and their value is
demonstrated through multiple experiments. NusaCrowd's data collection enables
the creation of the first zero-shot benchmarks for natural language
understanding and generation in Indonesian and the local languages of
Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual
automatic speech recognition benchmark in Indonesian and the local languages of
Indonesia. Our work strives to advance natural language processing (NLP)
research for languages that are under-represented despite being widely spoken
Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial
Laporan kerja magang ini berisi mengenai implementasi kegiatan kerja magang pada PT JULO Teknologi Finansial. Tugas utama yang diberikan adalah mendesain machine learning features pada model credit scoring di PT JULO Teknologi Finansial. Machine learning features ini dibuat dengan tujuan agar dapat membantu performa model credit scoring dalam mengklasifikasikan aplikasi pinjaman dalam tingkatan tertentu. Data pendukung dari pembuatan features merupakan informasi detail dari aplikasi android pada Google Playstore yang berkategorikan finance. Dari data pendukung dan juga beberapa data pengguna yang ada dalam database perusahaan, dapat terbentuk dua macam features berupa jumlah dari aplikasi android berkategorikan finance yang diunduh tiap aplikasi pinjaman dan juga feature turunan yang didapatkan dari feature jumlah aplikasi android dan durasi unduh antaraplikasi pada tiap aplikasi pinjaman. Features dapat memberi dampak yang cukup signifikan dalam performa model yang diukur dalam metrik penilaian performa AUC dibuktikan dengan masuknya features ke dalam 50 (lima puluh) features teratas dari kurang lebih 800 (delapan ratus) features diurutkan dari yang paling berpengaruh
Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT
Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective